热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

句子|本文_2022MSMARCO阿里HLATR:基于混合列表感知Transformer重排的多阶段文本检索增强(.featPRM:个性化的推荐重排)

篇首语:本文由编程笔记#小编为大家整理,主要介绍了2022MSMARCO阿里HLATR:基于混合列表感知Transformer重排的多阶段文本检索增强(.featPRM:个性化的推荐重

篇首语:本文由编程笔记#小编为大家整理,主要介绍了2022 MS MARCO阿里HLATR:基于混合列表感知Transformer重排的多阶段文本检索增强 ( .feat PRM:个性化的推荐重排)相关的知识,希望对你有一定的参考价值。


论文: 《HLATR: Enhance Multi-stage Text Retrieval with Hybrid List Aware Transformer Reranking》


1. 背景

由于数据规模和计算资源的限制,当前文本检索系统通常遵循召回-排序范式,召回和精排模型通常被实例化为我们在《【NAACL 2021】AugSBERT:用于改进成对句子评分任务的 Bi-encoder 数据增强方法》中介绍到的 Bi-Encoder 和 Cross-Encoder。


  • Bi-Encoder:
  • Cross-Encoder:

虽然在检索系统中,召回和排序模型是紧密关联的,但是目前已发表的工作大多仅致力于优化整个检索系统的单个模块。也就是说,面向召回模型的优化工作大多不会考虑排序模型的性能,反之亦然。虽然最近也出现了一些联合优化召回模型和排序模型的工作,比如以前介绍过的:



《【NAACL 2021】AugSBERT:用于改进成对句子评分任务的 Bi-encoder 数据增强方法》
《【NAACL 2022】GPL:用于密集检索的无监督域自适应的生成伪标记》
《【ICLR 2022】Trans-Encoder:通过自蒸馏和相互蒸馏的无监督句对建模》


但是这些工作的出发点都是利用表达能力更强的排序模型来提升召回模型的性能(AugSBERT、GPL),或是尝试蒸馏进行相互的提升(Trans-Encoder)。

由于训练过程中负样本规模和特征的差异,召回模型更偏向于学习粗粒度相关性,而排序模型更偏向于学习细粒度相关性。 这里需要注意的一点是,细粒度相关性和粗粒度相关性并无优劣之分,它们的关系实际上有点像模型鲁棒性和模型泛化性的关系。基于上述分析,我们可以猜想召回和排序的特征实际上是有一定的互补性的,如果我们可以有效地融合召回和排序的特征并用来对候选文档集合做进一步的重排序,是不是能够进一步提升整个系统的排序性能呢?


2. HLATR

基于此,本文作者在传统的召回-排序两阶段检索系统的基础上,提出了第三个重排阶段,该阶段融合了粗粒度召回特征和细粒度排序特征,进一步改善query和候选document的相关性打分,从而提升整个系统的检索性能。本文作者将该三阶段重排序的模型命名为混合列表感知排序模型HLATR ,如下图所示:


  • HLATR采用Transformer Encoder作为特征融合结构,整体结构如下图所示:

  • 作者将排序模型顶层输出的文档表示向量作为HLATR输入的token embedding:

    其中





    W


    v




    W_v


    Wv
    为要学习的参数。

  • 将召回模型输出的排序序号作为对应文档的position embedding:

    其中




    p



    p


    p
    为要学习的参数。

  • Transformer Encoder 的底层输入为 :

    其中




    Z



    Z


    Z
    为候选文档集合的大小。

  • 每个位置的输出为




    q



    q


    q






    d


    i




    d_i


    di
    的打分:

  • 采用listwise的对比损失优化模型:


3. 实验结果

实验结果如下表所示:

我们可以发现在不同的实验设置下,HLATR的性能均超越了两阶段排序结构和WCR策略。WCR策略是一个简单的基线策略——将召回打分和排序打分做一个线性加权融合:

说明HLATR带来的性能提升对模型类型和模型大小来说均是鲁棒的。另外,WCR策略实际上也能够带来小幅度的稳定提升,这也说明混合召回排序粗细粒度能增强文本检索的猜想是正确的。


4. 思考

4.1 对比排序阶段

HLATR 做的是 listwise 级别的相关性建模,而第二阶段排序的相关性建模大多只能做到对输出的相关性打分进行 pointwise 或 pairwise 建模。HLATR 有着更大的负样本规模,输入的每个位置都表示着一个文档,在训练过程中我们可以考虑输入召回模型返回的整个文档集合,而不是像第二阶段排序那样还需要随机抽样负样本来构造训练集。


4.2 对比 PRM:个性化的推荐重排

发现阿里出的HLATR搜索重排模型,和同样是阿里的推荐重排模型PRM结构非常相似:

可以参阅 paper《Personalized Re-ranking for Recommendation》

对于在排序阶段得到的items,我们可以得到它们对应的原始特征向量





x



i


1




,



x



i


2




,


.


.


.


,



x



i


n





x_i_1, x_i_2, ..., x_i_n


xi1,xi2,...,xin
,组合成了初始的特征矩阵。然后将这个矩阵和一个PV的个性化矩阵concat起来,组成一个embedding矩阵。PRM的x部分,类似对应HLATR中召回模型输出的向量。

个性化矩阵PV,那么它是怎么得到的呢?如下图所示:

PRM的PV部分,类似对应HLATR中排序模型输出的向量。

PRM的 position embedding(PE) 是排序结果位置embedding,而HLATR的PE是召回结果位置embedding。

对比PRM,引发了我对于HLATR架构的一个困惑:

HLATR并没有类似于PRM引入items原始特征那样,很好的引入document的特征。 HLATR中的向量




v



v


v
是基于排序模型向量的输入,但是排序模型中该向量是接着point-wise 二分类任务,所以该向量应该是不能很好的表达document,这样一来可能就会影响 Transformer Encoder 对句子间进行特征交互的效果

借鉴PRM,我认为HLATR 的 Transformer Encoder输出可以尝试改为以下方案:



[bi-encoder emb;cross-encoder emb] + [recall position emb;rank position emb]


猜想这可能会有更好的效果,当然这需要实验验证 ~~


推荐阅读
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 本文整理了常用的CSS属性及用法,包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等,方便开发者查阅和使用。 ... [详细]
  • 本文整理了Java中org.apache.pig.backend.executionengine.ExecException.<init>()方法的一些代码 ... [详细]
  • 项目需要实现弹幕,网上参考了各种方法,最后觉得transform+transition实现的效果在移动设备上性能最好,在iphone6和红米4上测试,看不到 ... [详细]
author-avatar
手机用户2602936771
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有